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基于 人 工 智能 的 检 校 系统 应 用 及 探索 


摘 要 : 随 着 媒体 融合 进入 深水 区 ， 新 闻 内 容 来 源 更 多 、 数 量 更 大 ， 传 播 渠 道 也 更 加 多 元 化 ， 时 效 性 要 求 也 越 来 越 高 ， 媒 体 
机 构 内 容 生产 的 质量 管控 和 发 稿 安全 面临 新 的 挑战 。 目 前 ， 将 人 工 智 能 技术 应 用 在 校对 中 ， 已 能 实现 判断 文稿 内 用 词 、 用 多 
的 准确 性 和 合理 性 ， 甚 至 能 分 辨 出 感情 色彩 矛盾 或 者 逻辑 不 通 的 地 方 。 新 华 报 业 传媒 集团 全 媒体 指挥 中 心 采 用 全 流程 智能 检 
校 和 不 同系 统 的 交叉 检 校 ， 贯 穿 内 容 生 产 的 各 个 关键 环节 ， 并 利用 检 校 结果 深度 学 习 ， 形 成 不 断 迭 代 完 善 的 闭环 。 
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1. 项 目 背景 

新 闻 稿 件 的 文字 校对 ， 是 新 闻 生 产 发 布 过 程 中 必 不 
可 少 的 重要 环节 ， 是 保障 发 稿 安全 、 维 护 新 闻 严 说 性 的 关 
键 防线 。 各 大 媒体 出 版 机 构 的 稿件 审核 流程 虽 不 尽 相 同 ， 
但 在 正式 发 布 之 前 各 家 都 有 一 个 相同 的 环节 一 一 校对 。 
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的 基调 上 ， 判 断 每 个 词 、 每 句 话 是 否 合理 。 目 前 主流 的 
文章 情感 分 析 包括 基于 情感 词典 的 分 析 和 基于 机 器 学 习 
的 分 析 。 

大 多 数 的 文章 情感 分 析 主 要 是 针对 学 习 词 典 的 建 模 
分 析 和 机 器 学 习 算 法 进行 研究 ， 通 过 对 情感 词典 、 否 定 


伴随 着 不 同时 期 媒体 行业 对 文字 校对 的 需求 ， 校 对 
系统 先后 经 历 了 三 代 的 发 展 : 第 一 代 系 统 主 要 基于 计算 
机 的 存储 和 基本 运算 ,通过 积累 大 量 的 错 词 库 ， 对 稿件 
的 文字 内 容 进行 逐 字 、 逐 词 匹 配 ， 实 现 词汇 级 的 检 校 ; 
第 二 代 系 统 采用 智能 技术 来 实现 整 句 级 别 的 文字 检查 ， 
能 够 根据 句子 整体 表达 的 语 境 ， 识 别 其 中 词汇 的 不 合理 
搭配 问题 第 三 代 检 校 系统 是 一 种 类 人 系统 ， 在 第 二 代 
系统 的 能 力 基 础 之 上 ， 通 过 深度 学 习 实现 语义 分 析 ， 对 
稿件 内 容 进 行 全 面 分 析 和 理解 。 在 把 握 全 文 的 观点 、 基 
调 的 基础 上 ， 判 断 文稿 内 每 句 话 、 每 个 字 词 是 否 合理 ， 
是 否 存 在 感情 色彩 矛盾 或 者 逻辑 不 通顺 的 地 方 。 

随 着 媒体 融合 进入 深水 区 ， 新 闻 的 传播 渠道 也 越 来 
越 多 元 化 ， 时 效 性 要 求 也 越 来 越 高 ， 市 场 对 内 容 生产 的 
速度 、 广 度 、 深 度 、 总 量 都 提出 了 更 高 的 要 求 ， 媒 体 机 
构 内 容 生产 的 质量 管控 和 发 稿 安全 面临 新 的 挑战 。 全 媒 
体 指挥 中 心 项 目 利 用 当下 语义 分 析 和 深度 学 习 的 最 新 发 
展 成 果 ， 在 内 容 生产 流程 中 探索 引入 人 工 智 能 检 校 ， 并 
对 检 校 效果 进行 统计 评估 。 

2. 智能 检 校 技术 分 析 
2.1 智能 检 校 的 难点 
智能 检 校 的 难点 在 于 对 情感 和 语义 的 分 析 ， 在 全 文 


词 词典 、 程 度 副 词 词 虹 、 停 用 词 词 骨 分析 ， 计 算 上 下 文 
情感 倾向 的 方法 。 分 析 新 闻 主 题 和 词语 修饰 成 分 之 间 的 
搭配 关系 来 计算 词语 极 性 ， 综 合 词典 资源 用 于 构建 情感 
词 库 ， 同 时 采用 加 权 线 性 组 合 方法 ， 以 实现 判断 文章 的 
情感 倾向 。 

基于 机 器 学 习 的 文章 情感 分 析 方 法 是 将 情感 视 作 一 
种 多 分 类 问题 ， 属 于 有 监督 的 学 习 方 法 。 机 器 学 习 方 法 
要 经 过 文本 的 预 处 理 、 特 征 选 择 、 特 征 加 权 、 训 练 分 类 
器 并 进行 分 类 等 过 程 。 该 方法 的 分 类 性 能 要 优 于 传统 的 
特征 加 权 方 法 TF-IDF (term frequency - inverse document 


freddenoy yo 
2.2 自然 语言 处 理 的 应 用 
自然 语言 处 理 ( Natural Language Processing ) 是 信息 
时 代 最 重要 的 技术 之 一 ， 是 人 工 智 能 的 重要 组 成 部 分 。 
基于 NLP 技术 衍生 出 的 应 用 已 经 在 各 领域 得 到 广泛 运用 ， 
包括 拼写 检查 、 机 器 翻译 、 语 音 识 别 、 聊 天 机 器 人 等 。 
深度 学 习 提 供 了 一 个 灵活 、 通 用 、 可 学 习 的 框架 ， 
它 在 语音 识别 和 计算 机 视觉 领域 取得 了 突破 性 的 进展 。 
检 校 工作 主要 是 跟 文字 相关 ，NLP 可 以 让 计算 机 实现 对 
内 容 的 阅读 和 理解 ， 对 错误 处 给 出 提示 ， 实 现 检 校 工作 
的 自动 化 。 
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2. 3 智能 检 校 系统 的 构建 

针对 目前 主流 的 检 校 系统 ， 通 过 搜集 大 量 错 误 录 入 
字 词 的 典型 可 以 发 现 ， 中 文 检 校 系统 最 常见 的 错误 包括 
字 词 级 错误 、 语 法 级 错误 和 语义 级 错误 。 字 词 级 错误 主 
要 由 错字 、 别 字 、 少 字 、 多 字 、 蜡 位 引起 。 通 过 对 稿件 
的 文字 内 容 进 行 逐 字 、 逐 词 匹 配 ， 将 与 错 词 库 中 内 容 相 
匹配 的 词 认 定 为 字 词 错误 ， 提 示 给 使 用 者 。 比 如 : “ 倡 
仪 、( 倡 议 ) 、“ 国 家 ”( 国 家 ) 、“ 总 埋 ” (总 理 ); 
语法 级 错误 主要 指 词语 的 错误 搭配 或 者 漏 字 等 情况 。 通 
过 大 量 学 习 正 确 语 料 ， 让 计算 机 系统 自主 分 析 归 纳 语言 
的 习惯 用 法 、 模 式 等 ， 使 机 器 对 句子 形成 一 定 的 理解 和 
判断 能 力 ， 从 而 实现 在 一 个 句子 的 维度 上 对 字 、 词 进行 
分 析 判 断 ， 识 别 其 中 的 异常 、 不 合理 内 容 ， 达 到 检查 校 
对 的 目的 。 

智能 检 校 系统 在 全 媒体 指挥 中 心 的 应 用 不 仅 实现 了 
词汇 检查 、 语 名 检查， 还 能 对 情感 做 一 定 分 析 ， 对 稿件 
内 容 进行 全 面 分析 和 理解 。 在 全 文 观 点 、 基 调 的 基础 上 ， 
判断 每 句 话 、 每 个 字 词 是 否 合理 ， 是 否 存在 观点 矛盾 或 
者 逻辑 不 通顺 的 地 方 。 通 过 基于 主题 融合 的 深度 学 习 ， 
用 中 文 文本 预 处 理 方法 将 非 结构 化 或 半 结 构 化 的 信息 转 
换 为 计算 机 能 理解 的 结构 化 信息 ， 对 内 容 进行 全 面 分 析 
和 理解 ， 从 而 自动 识别 文本 的 情感 类 别 ， 实 现 校 验 的 智 
能 化 。 

文章 的 主题 与 文章 情感 通常 存在 一 定 的 共性 ， 深 度 
学 习 模型 可 以 通过 融合 向 量 提高 文章 情感 分 类 模型 的 准 
确 率 。 检 校 系统 引入 双向 LSTM 情感 算法 ， 实 现 词语 的 
上 下 文 信息 融合 ， 既 克服 了 传统 RNN 的 梯度 消失 问题 ， 
还 解决 了 传统 LSTM 只 能 较 好 地 融合 上 文 信息 、 缺 少 下 
文 信息 融合 的 问题 。 通 过 融合 文本 的 主题 特征 ， 构 建 更 
精准 的 情感 分 类 模型 。 
3. 构建 全 流程 的 内 容 安全 

传统 的 新 闻 稿 检 校 工作 通常 是 稿件 发 布 前 的 最 后 一 
个 环节 ， 检 校 的 时 间 紧 、 任 务 重 ， 检 出 的 错误 需要 退回 
修改 然后 再 检 校 。 而 在 媒体 深度 融合 大 环境 下 ， 稿 件数 
量 井 喷 式 增加 ， 移 动 端的 实时 新 闻 经 常 追求 最 快速 度 发 
稿 ， 晚 一 秒 钟 可 能 就 失去 了 这 条 新 闻 最 佳 的 传播 机 会 。 
在 这 样 的 环境 下 ， 再 把 校对 工作 完全 放 在 发 布 前 的 最 后 
一 个 环节 的 做 法 ， 在 实践 中 已 经 不 能 满足 现今 媒体 新 闻 
稿件 多 形式 、 低 时 间 宽 容 度 、 零 错误 容忍 度 的 要 求 ， 更 
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难以 满足 未 来 建设 “四 全 媒体 ”的 长 远 目标 。 智 能 检 校 
系统 将 主动 检 校 和 自动 检 校 结合 起 来 ， 采 用 SAAS 布局 
模型 ,使 智能 检 校 系统 既 可 以 租 入 稿件 编辑 系统 又 能 
为 独立 的 辅助 审核 模块 使 用 。 

智能 检 校 工作 分 布 在 内 容 生 产 的 各 个 关键 环节 ， 编 
辑 随时 都 可 以 将 当前 编写 的 稿件 内 容 发 起 人 工 智 能 检 校 。 
这 样 就 将 查 错 、 纠 错 的 时 间 分 挫 到 稿件 流转 的 过 程 
减轻 最 后 检 校 环节 的 压力 ， 将 因 时 间 过 紧 和 数量 过 多 引 
起 的 检 校 差 漏 降 至 最 低 。 


TY 


日 
， 


全 库 检 校 
风险 报表 


在 稿件 采编 环节 ， 检 校 系统 实时 参与 其 中 ， 编 辑 记 
者 可 以 点 选 检 校 ， 系 统 会 对 文字 稿件 进行 词语 错 用 、 语 
义 表 述 错误 等 提示 并 给 出 修改 建议 ， 为 编辑 写 稿 把 好 第 
一 关 。 同 时 ， 通 过 检 校 智能 助手 与 编辑 进行 互动 ， 编 辑 
点 击 右 侧 的 每 条 提示 ， 编 辑 框 中 的 焦点 会 随 之 定位 ， 节 
省 了 编辑 再 去 原文 中 找 对 应 点 的 时 间 。 与 此 同时 ， 在 编 
辑 对 所 提示 错误 做 出 修改 或 忽略 的 决策 时 ， 智 能 检 校 系 
统 会 对 这 一 决策 进行 记录 与 学 习 。 


[办 本 六 稿件 编辑 


太 。 新 华 报 业 传 琛 集团 全 党 体 指挥 中 心 咎 能 栓 校 系统 演示 23/340 字 加 引 目 副 


四 未 -16px BTUA- 园 -至 三 三 皇位- | 


on-E- Ho onanne orngs nm | 


人 硬 
科技 周刊 “星光 * 版 & 三 院士 畅 说 中 国 未 来 大 交通 第 二 个 小 标题 的 第 一 段 中 ， “我 的 。 | 民 这 入 的 情 六 

航 宝 职业 生涯 征 从 南京 开始 ， 折 对 南京 有 着 竺 天 的 情 车 ，* 南京 角 宝 航天 大 学 7 级 术 友 、 

中 国 工程 院 院士 、C919 国 产 大 飞机 总 设计 师 吴 光 检 民主 的 开 轧 四 得 全 久 繁 声 。 i 于 
全 用 生计 人 由 > 这 全 世故 欢 字 贡生 直 从 

的 征集 [ED 发 员 到 最 后 认定 的 时 间 是 Ti 天， 最终 当 计 的 是 < 尺 贡 竺 进行 曲 》， 词 作者 是 

汉 ， 曲 作者 是 汉 卫 ， 穆 来 电影 《 负 去 J 女 >》 的 薄 曲 。 


采编 环节 检 校 


在 稿件 签发 环节 ， 如 果 编 辑 在 提交 新 闻 稿 件 时 没有 
将 稿件 中 的 问题 完全 修改 完善 ， 或 者 是 修改 后 又 引发 了 
新 的 错误 ， 编 辑 没 有 注意 直接 提交 至 了 稿 库 。 在 该 稿件 
签发 时 ， 审 核 人 员 可 以 利用 智能 检 校 系统 会 再 一 次 对 稿 


国 
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件 进行 重新 检 校 。 通 过 在 流程 必 经 节点 上 实施 二 次 检 校 ， 
尽早 将 差错 的 纠正 工作 往 流 程 的 前 面 节 点 安排 。 


名 【签发 】 新 华 报 业 传媒 集团 全 媒体 指挥 中 心智 能 检 校 系统 演示 


人 @ 入 # 中 有 两 处 疑 们 错误 ， 请 确认 
原文 : 特殊 的 情节 加 
建议 : 


原文 : 征集 启示 
建议 : 启事 


签发 环节 检 校 


将 智能 检 校 的 环节 前 置 并 不 意味 着 在 稿件 发 布 之 前 
不 再 进行 检 校 ， 稿 件 进 入 签发 库 后 还 会 进行 全 库 检查 。 
为 了 避免 同一 个 智能 检 校 系统 存在 检 校 结果 上 的 趋同 性 
定 势 ， 全 媒体 指挥 中 心 系统 引入 另 一 套 检 校 系统 对 “ 终 
稿 库 ” 的 稿件 进行 批量 检 校 ， 并 给 出 错误 风险 提示 。 


序号 文章 标题 错误 个 数 
南京 社 治 会 / 八 百 公益 项 目 寻 买 杰 " 
常 Hi 铁 1 号 经 开通 
重庆 大 字 建 午 品 地 物 馆 ?已 暂停 开放 三 大 疑问 竺 回应 
世界 粮食 日 保护 及 食 安全， 新 沂 检 罕 在 行动 
南京 六 全 油 住 房 限购 政策 外 地 太 专 以 上 人 才 无 需 提供 社保 证 明 
IMF 下 洞 今明 两 年 世界 经 济 增长 预 明 
《 求 是 》 杂 志 发 表 习近平 总 书记 重要 文章 
高 中 生 蛙 亡 电 训 酒店 : 失 联 月 余 后 联系 父亲 ，“ 他 们 就 先 要 钱 
未 来 三 天 ， 江 苏 大 部 分 地 区 和 多云， 最 低温 10YC 
人 民 日 报 : 发 挥 币 度 建 设 的 中 国 甸 车 
会 省 设 区 市 不 应 初 必 、 丰 记 舍命 主 是 教育 推进 会 召开 
在 黄河 澈 生 志保 护 和 商 质 是 发 展 座 谈 会 上 的 讲话 
做 他 前 后 衙 接 加 强 上 下 互动 
爹 融 反 府 力 度 持续 加 大 
匡 栓 | 多 措 并 举 扎实 开展 主题 教育 活动 
习近平 应 约 同 法 国 总 过 马 克 龙 通电 话 


MR sa 


批量 交叉 检 校 错误 风险 提示 列表 


4. 双 系 统 交 叉 检 校 

目前 ， 单 个 基于 语义 分 析 与 深度 学 习 的 智能 检 校 系 
统 在 现实 应 用 中 还 会 出 现 一 些 未 能 检测 出 的 错误 ， 基 于 
不 同 的 语料库 的 学 习 结 果 也 会 出 现 对 词汇 、 语 义 、 情 感 
等 元 素 理解 判断 上 的 差异 。 智 能 检 校 系统 除了 将 检 校 工 
作 在 流程 中 分 层 前 移 以 外 ， 同 时 引入 了 两 套 不 同 的 智能 
检 校 系统 ， 利 用 两 套 系统 对 新 闻 稿 件 进行 交叉 检 校 。 第 
一 套 系统 负责 对 单个 稿件 进行 检 校 ， 第 二 套 系统 负责 将 
通过 第 一 套 系统 检 校 过 的 稿件 再 一 次 全 文 检 校 ， 并 通过 
统计 列表 将 签发 库 中 稿件 的 问题 形成 差错 警示 表 ， 并 将 
此 结果 反馈 给 智能 检 校 系统 的 学 习 模 块 ， 使 系统 不 断 自 
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我 完善 。 如 此 一 来 ， 就 可 以 充分 利用 各 家 所 长 ， 最 大 限 
度 提 升 智 能 检 校 对 稿件 质量 的 把 控 效 果 。 


结合 智能 检 校 系统 的 应 用 ， 通 过 对 内 容 生产 流程 进 
行 融 合 再 造 ， 将 自然 语义 分 析 与 深度 学 习 的 技术 成 果 引 
入 内 容 生 产 全 流程 。 经 过 一 段 时 间 的 运行 ， 从 采编 人 员 
的 使 用 情况 调研 和 每 阶段 的 稿件 差错 统计 报告 来 看 ， 比 
传统 检 校 更 有 优势 ， 检 出 了 一 些 传 统 检 校 不 能 检 出 的 关 
键 错误 。 

未 来 ， 智 能 检 校 系统 将 进一步 在 基于 私有 数据 学 习 
和 基于 互联 网 大 数据 学 习 两 个 方面 不 断 完 善 ， 通 过 本 地 
化 学 习 进 一 步 完 善 检 校 规则 ， 不 断 增强 其 严谨 性 ; 通过 
互联 网 大 数据 学 习 ， 跟 进行 业 龙头 在 稿件 检 校 标准 方 
的 发 展 ， 同 时 及 时 了 解 互联 网 新 生 表 达 方 式 ， 充 分 发 挥 
出 全 流程 检 校 和 交叉 检 校 的 县 加 作用 ,达到 “1 + 1 > 2” 
的 效果 。 图 
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